Objetivos de Aprendizagem
- Configure e verifique um ambiente de desenvolvimento GPU pronto para produção usando CUDA e ROCm.
- Execute análise de desempenho em todo o sistema para mapear cronogramas de execução de kernels e utilização de recursos.
- Diferencie entre kernels limitados por cálculo e limitados por memória usando métricas e modelos roofline.
- Diagnostique e reduza a sobrecarga de transferência de dados PCIe e a latência entre host e dispositivo.